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摘要 : 


【 目的 ] 通过 网 络 用 户 评论 , 为 评论 网 站 构建 有 效 的 评分 预测 机 制 。[ 方法 】 提 出 基于 网 络 用 户 评论 的 评 


分 预测 模型 ,该 模型 包括 4 个 模块 : 网 络 用 户 评论 获取 模块 、 预 测 变量 获取 模块 、 预 测 分 析 模 块 以 及 预测 结果 评 
价 模块 。 抓 取 30 部 不 同类 型 的 电影 评论 数据 , 27 部 用 于 构建 模型 , 3 部 用 于 检验 模型 。[ 结果 】 使 用 逐步 回归 方 


法 得 


选 出 变量 : 参与 评分 人 数 、 参 与 评论 人 数 、 想 要 观看 人 数 和 电影 正 向 评论 情感 均值 , 构建 评分 预测 模型 。 使 
用 3 部 电影 验证 ,预测 评分 与 IMDb 评分 相差 最 大 值 为 0.0644, 最 小 值 为 0.0227。[ 局 限 】 在 数据 样本 量 、 


情感 


村 征 提取 精度 、 模 型 普 适 性 验证 等 方面 有 待 进一步 提升 。[ 结论 ] 该 模型 能 够 依据 用 户 评论 对 评分 进行 有 效 预 测 ， 


在 网 络 水 军 探测 方面 也 能 发 挥 一 定 的 作用 。 


关键 词 : 评分 预测 ”情感 分 析 ”回归 分 析 ”电影 评分 ”网络 水 军 探测 
分 类 号 : G350 
分 预测 模型 。 由 于 网 络 评论 中 包含 用 户 对 产品 的 意见 


1 3 引 


随 着 Web2.0 的 发 展 , 每 一 位 网 络 用 户 都 可 以 通过 
互联 网 发 表 个 人 对 产品 的 观点 并 为 产品 打分 ,专门 的 
产品 评分 网 站 也 应 运 而 生 。 同 时 , 越 来 越 多 的 消费 者 
将 评分 网 站 上 的 用 户 评分 作为 消费 决策 的 重要 参考 。 
但 由 于 信息 发 布 的 门槛 降低 , 评分 网 站 上 的 评分 易 受 
到 非 正 常 手 段 干扰 ， 面 对 评 分 网 站 上 纷繁 的 产品 宣传 
和 产品 评价 ， 如 何 从 网 络 中 识别 真实 的 产品 评价 及 评 
分 成 为 网 民 们 关注 的 问题 。 如 今 评分 网 站 在 引导 消费 
上 起 到 极其 关键 的 作用 , 但 是 其 存在 两 个 问题 使 得 产 
品 的 真实 性 大 打折 扣 : 一 是 消费 者 评论 具有 混杂 性 ， 
二 是 用 户 恶 意 刷 分 行为 影响 了 产品 的 真实 评分 。 普 通 


了 中 


和 情感 倾向 ， 因 此 ,基于 用 户 的 评论 内 容 , 利用 情感 
分 析 技 术 分 析 评 论文 本 的 情感 倾向 性 ,将 情感 指标 作 
为 辅助 预测 指标 ， 以 提高 模型 的 预测 效果 。 对 于 个 人 ， 
可 以 通过 评分 预测 模型 得 到 更 客观 公正 的 评分 , 为 消 
费 决策 提供 建议 ; 对 于 商家 , 可 以 收 到 最 真实 的 使 用 
反馈 6， 以 改进 产品 质量 ; 对 于 网 站 管理 方 ,可 以 用 来 
探测 评分 异常 值 存在 ， 及 时 发 现 *“ 网 络 水 军 皂 1， 维护 
网 站 正常 运营 。 


2 相关 研究 


目前 对 网 络 用 户 评论 的 相关 研究 已 经 取得 了 较 多 
的 成 果 ,， 主要 研究 方向 集中 在 评论 的 有 用 性 、 评 论 对 


用 户 只 能 通过 网 络 评分 辨别 产品 的 优 劣 ， 而 一 个 不 具 
有 公信 力 的 评分 很 大 程度 上 会 误导 用 户 判 断 。 另 外 ， 
网 络 评分 在 产品 发 布 之 后 一 段 时 间 才 趋 于 稳定 , 存在 
滞后 性 的 特点 。 
针对 上 述评 分 网 站 的 问题 , 本 文通 过 选取 网 络 用 
户 评论 的 相关 指标 ,提出 一 种 基于 网 络 用 户 评论 的 评 


产品 销量 的 影响 和 评论 文本 挖掘 三 个 方面 。 

(1) 评论 的 有 用 性 是 指 用 户 产生 的 能 够 帮助 潜在 
消费 者 购买 决策 的 产品 评价 站。 只 有 消费 者 认为 有 用 
的 评价 才 具 有 实际 价值 , 研究 者 主要 从 评论 内 容 和 评 
论 用 户 的 角度 对 评论 的 有 用 性 进行 探索 。Chen 等 中 抓 
取 亚 马 逊 网 站 用 户 评论 数据 , 提出 网 络 用 户 评论 的 有 
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之 一 。 


用 性 与 评论 用 户 、 评 论 效 用 和 评论 获 支持 数 存在 较 强 
的 关联 性 。 吴 江 等 外 从 评论 信息 的 相关 性 、 及 时 性 、 
客观 性 、 真 实 性 4 个 维度 出 发 , 构建 评论 有 用 性 影响 
因素 模型 。Kuan 等 中 利用 亚马逊 评论 数据 探索 出 评论 
语句 的 长 度 、 可 读 性 程度 、 情 感 极 性 、 评 论 用 户 的 信 
誉 对 评论 的 有 用 性 具有 影响 。 

(2) 评论 对 产品 销量 的 影响 涉及 的 产品 领域 众多 ， 
主要 包括 电子 产品 类 、 音 像 图 书 类 、 旅 游 酒店 类 、 电 
影 类 等 , 王 文 君 等 由 通过 对 在 线 手机 评论 研究 发 现 , 评 
论 长 度 、 评 论 时 效 性 、 评 论 数 量 、 负 面 评 论 和 产品 价 
格 对 在 线 手机 销量 有 显著 性 影响 。 友 诗 阳 等 中 分 析 了 
当当 网 上 的 图 书评 论 , 研究 显示 评论 数量 对 图 书 销量 
有 正 向 影响 。 评 论 数量 对 销量 的 影响 程度 随 着 图 书 上 
线 的 时 间 变 长 而 减弱 。Torres 等 四 研究 美国 178 家 酒店 
在 TripAdvisor 上 的 评分 排名 与 在 线 评论 数量 对 酒店 
在 线 交 易 产生 的 影响 , 分 析 发 现 评论 数量 和 评分 排名 
对 酒店 在 线 预订 交易 具有 积极 影响 。Chintagunta 等 中 
测量 了 评论 效用 、 评 论 数 量 对 电影 票房 的 影响 。 


测 打 分 模型 。 但 该 模型 变量 只 涉及 综合 情绪 值 和 评论 
总 数 , 没有 考虑 评论 的 其 他 因素 。 

综 上 所 述 , 目前 虽然 有 很 多 关于 网 络 用 户 评论 的 
研究 , 但 研究 主要 集中 于 评论 效用 和 挖掘 技术 方面 。 
在 评分 预测 方面 , 结合 情感 分 析 , 并 用 于 评论 分 数 预 
测 方 面 的 相关 研究 较 少 。 本 文 在 网 络 用 户 评论 相关 变 
量 基础 上 , 引入 情感 特征 因素 作为 辅助 预测 变量 , 提 
出 基于 网 络 用 户 评 论 的 评分 预测 模型 ， 旨 在 利用 情感 
分 析 和 回归 分 析 手 段 实 现 对 产品 评分 网 站 客观 评分 的 
有 效 预测 。 


3 ”基于 网 络 用 户 评论 的 评分 预测 模型 设计 


本 文 提出 一 种 基于 网 络 用 户 评论 的 评分 预测 模 
型 ， 预 测评 分 网 站 中 产品 的 客观 评分 。 借 助 情感 分 析 
的 手段 , 提取 用 户 语 料 中 的 情感 特征 , 使 之 成 为 辅助 
预测 指标 , 并 寻找 行业 内 最 客观 公正 的 评分 作为 预测 
对 比 变 量 。 同 时 结合 相关 联 的 预测 指标 以 及 情感 分 析 
指标 作为 自 变 量 , 通过 回归 分 析 构 建 评 分 预测 模型 。 


(3) 评论 文本 挖掘 主要 包括 产品 特征 挖掘 和 用 户 
情感 的 判断 。 对 评论 中 产品 特征 的 挖掘 是 从 产品 自身 
的 角度 进行 分 析 ，Liu 等 上 9 首先 提出 应 用 关联 规则 分 
类 方法 提取 英文 评论 中 的 产品 特征 。 杜 思 奇 等 5 引信 
汉语 组 块 分 析 , 结合 支持 向 量 机 、Apriori 算法 获取 频 
繁 项 集 、TF-IDF 停 用 词 过 滤 实 现 评论 文本 中 产品 特征 
的 提取 。 用 户 情感 的 判断 主要 通过 挖掘 用 户 网 络 评价 
的 情感 倾向 分 析 用 户 对 评价 对 象 的 讲 贬 态度 。 单 晓 红 
等 [5 采用 情感 分 析 方 法 对 苹果 手机 用 户 的 网 络 评论 进 
行 分 析 , 为 用 户 购买 决策 提供 依据 。 吴 维 芳 等 睛 利用 
Word2Vec 对 TripAdvisor 酒店 评论 进行 特征 抽取 和 降 
维 , 结合 情感 分 析 技 术 , 构建 计量 经 济 模型 分 析 酒 店 
特征 评价 与 用 户 满意 度 的 关系 。 

男 外 ,在 评分 预测 方面 ， 马 春平 等 (提出 一 种 基 
于 词 向 量 的 方法 挖掘 用 户 评论 信息 ,并 结合 协同 过 滤 
的 方法 设计 新 的 推荐 算法 , 该 算法 有 效 地 提高 了 推荐 
系统 的 评分 预测 性 能 。 Kamath 等 055 利用 MG- LDAM9 
算法 对 评论 进行 主题 分 析 生 成 主题 词 表 , 利用 主题 词 
表 将 用 户 评 论 表 示 成 特征 向 量 , 利用 机 器 学 习 算 法 建 
模 进 行 评分 预测 。 马 松 岳 等 ("对 豆 激 电影 的 用 户 评价 
进行 情感 分 析 得 到 综合 情绪 值 ， 发 现 评 论 评价 的 综合 
情绪 值 与 打分 评价 相关 性 较 高 ,根据 评论 评价 构建 预 


该 模型 主要 由 4 个 部 分 构成 : 网 络 用 户 评论 获取 模块 、 
预测 变量 获取 模块 、 预 测 分 析 模 块 以 及 预测 结果 评价 
模块 ， 如 图 1 所 示 。 

(1) 网 络 用 户 评论 获取 模块 主要 包括 网 络 评论 来 
源 的 筛选 以 及 网 络 评论 数据 的 获取 。 质 量 高 的 数据 源 
有 助 于 模型 的 有 效 建立 , 选 定 具有 代表 性 的 网 站 作为 
网 络 评论 数据 源 "M 选取 行业 客观 评分 数据 来 源 ; 采 
集 所 需 数据 并 存储 在 数据 库 中 。 

(2) 预测 变量 获取 模块 主要 包括 网 络 用 户 评论 相 
关 预 测 指标 和 情感 特征 指标 。 获 取 网 络 用 户 评论 相关 
预测 指标 , 对 数量 级 大 的 变量 进行 对 数 缩放 操作 ， 防 
止 数据 的 量 级 差距 导致 模型 失真 。 和 情感 特 征 指标 提取 
包括 数据 清洗 、 中 文 分 词 、 去 停 用 词 以 及 情感 量化 "1。 
对 网 络 用 语 化 且 非 结构 化 的 网 络 用 户 评论 进行 数据 清 
洗 , 剔除 评论 中 的 网 络 链接 .表情 等 非 规范 信息 ， 只 保 
留 文本 内 容 ; 进行 文本 分 词 和 去 停 用 词 处 理 , 减少 情 
感 量化 的 计算 量 ; 通过 情感 值 计算 的 方式 对 语 料 数据 
进行 量化 。 

(3) 预测 分 析 模 块 主要 针对 预测 变量 , 采用 多 元 
线性 回归 分 析 方法 构建 预测 模型 请， 并 对 模型 进行 结 
果 分 析 。 若 P 值 不 显著 , 则 采用 不 同 的 回归 分 析 方 法 
第 选 变量 , 重 构 模型 观察 各 个 变量 P 值 是 否 显著 (小 
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于 0.05), 倘若 不 显著 说 明 模 型 建立 失败 。 若 P 值 显著 ， 
再 对 R 方 (R-square) 和 调整 R 方 (Adjusted R-square) 进 
行 比 较 , 选取 值 较 高 的 回归 模型 ,该 数值 越 大 ,预测 
值 与 实际 值 越 接 近 。 

(4) 预测 结果 评价 模块 主要 包括 对 回归 模型 的 预 


停 用 词 表 一 一 | 去 停 用 词 | 


| 
| 预测 变量 | 请 二 人 下 
E E 时 
区 了 可 | a 
变 基 
数据 清洗 | 
| 
数据 变换 
中 文 分 间 
I 
| 预测 变量 
| 组 建 
| 
| 
| 
| 
| 


语 料 数据 库 
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测 结果 进行 可 视 化 解析 , 通过 拟 合 预 测 分 数 与 客观 评 
分 , 观察 预测 效果 。 MT 

的 变量 , 分 析 其 差异 性 的 缘由 ,进行 剔除 后 , 重新 构 
建 回归 方程 , 并 采用 预测 数据 检验 模型 的 实际 预测 效 
果 ，, 以 证 明 预 测 模型 的 有 效 性 。 


网 络 息 忠 
采集 数据 


网 络 用 户 评论 
获取 模块 


| 


最 终 预测 
模型 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
重 构 模型 | | 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


图 1 评分 预测 模型 流程 


4 ”模型 验证 与 评估 


为 验证 评分 预测 模型 的 有 效 性 ,以 电影 评分 网 站 
为 例 , 通过 网 络 用 户 评 论 预测 模型 来 预测 电影 评分 。 
4.1 实验 数据 来 源 选 取 与 采集 

(1) 豆瓣 电影 影评 数据 源 

豆 辩 电影 是 国内 热门 的 电影 评分 网 站 , 收录 了 十 
分 齐全 的 国内 外 电影 数据 , 用 户 数量 及 电影 评论 数据 
量 巨大 , 是 一 个 理想 的 网 络 评 论 源 。 豆 办 的 影评 主要 
以 两 种 形式 存在 : 短评 和 长 评 。 短 评 字数 限制 在 140 
字 以 内 ， 主 要 是 豆瓣 用 户 对 于 电影 较为 宏观 或 者 某 个 
方面 的 评价 。 长 评 多 为 篇 幅 型 影评 内 容 ， 内 容 繁 杂 , 很 
多 电影 之 外 的 内 容 , 例如 有 些 会 介绍 拍摄 过 程 、 拍 摄 
手法 或 者 演 职 人 员 等 。 因 此 ,本 文选 取 豆 办 电影 评分 
网 站 的 短评 作为 网 络 用 户 评论 语 料 。 

以 近年 来 的 电影 为 样本 , 为 保障 数据 的 多 样 化 ， 
选取 时 尽量 兼顾 电影 上 映 月 份 和 不 同类 型 的 电影 题 
材 ， 如 动作 类 、 喜 剧 类 、 科 幻 类 等 。 共 计 选 择 30 部 电 
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影 ， 部 分 电影 如 表 1 所 示 。 
表 1 电影 样本 (部 分 ) 


编号 “电影 名 称 。 中 日 类 型 制作 地 区 
1 小 时 代 4 ”2015/7/9 爱情、 剧情、 青春 
2 小 时 代 2 ”2013/8/8 ”青春 、 剧 情 、 爱 情 i 
3 ”恶棍 天 使 。 2015/12/24 喜剧 、 荒 诞 、 爱 情 ”中 国 
4 万 物 生长 ”2015/4/17 爱情、 剧情、 校园 “中国 
5 ” 提 妖 记 2015/7/116” 剧情、 喜剧 、 奇 幻 ”中国 
6 ”湄公河 行动 2016/9/30 动作、 警 菲 中 国 
7 驴 得 水 2016/10/28 喜剧 、 剧 情 中 国 
8 功夫 熊猫 3 2016/1/29 动画, 喜剧、 动作 ”美国 、 中国 
9 百 鸟 朝 风 2016/5/6 ”剧情 、 文 化 中 国 
10 七 月 与 安生 2016/9/14 剧情 、 爱 情 、 青 春 ”中国 


(2) 客观 评分 数据 源 
互联 网 电影 数据 库 (IMDb) 是 目前 信息 量 较 大 、 使 
用 人 数 较 多 、 影 响 范围 较 广 、 影 响 力 较 大 的 电影 网 站 


之 一 上 .IMDb 的 影片 得 分 采取 统计 学 的 计算 方法 , 并 
结合 部 分 专家 的 评分 意见 ， 保 障 电影 的 评分 不 受 极端 
行为 的 影响 。 为 保障 电影 评分 的 客观 性 , 本文 选取 
IMDb 的 评分 系统 作为 评分 预测 模型 的 客观 评分 来 源 。 

(3) 电影 影评 时 间 区 间 选 取 

由 于 电影 的 影评 数据 时 间 轴 较 长 , 通过 观察 电影 
影评 趋 于 稳定 状态 的 时 长 , 确定 选取 数据 的 时 间 区 间 。 
一 般 来 说 , 多 数 电 影 的 上 映 期 限 为 一 个 月 。 选取 不 同类 
型 的 电影 《 百 鸟 朝 凤 》《 七 月 与 安生 》《 功 夫 熊 猫 3》， 
对 其 上 映 后 获取 的 数据 量 进 行 分 析 , 如 图 2 所 示 。 


1600 


六 1200 


2 
沽 
400 
9 1 2 3 5 7 10 14 20 25 30 37 44 51 
影 上 映 时 间 (天 ) 
一 百 鸟 朝 风 ”一 -七 月 与 安生 功夫 熊猫 3 
图 2 《 百 鸟 朝 凤 》《 七 月 与 安生 》《 功 夫 能 猫 3》 
豆 闪 影评 增长 趋势 
从 图 2 可 知 , 三 部 电影 的 评论 数据 在 上 映 后 一 周 
达到 顶峰 , 在 30 天 后 评论 数据 波动 不 再 明显 ， 并 趋 于 
稳定 。 此 外 , 在 分 析 三 部 电影 的 豆瓣 电影 短评 情感 倾 
向 性 方面 出 现 类 似 现象 , 如 《七 月 与 安生 》, 正 向 评论 
情感 值 和 负 向 评论 情感 值 在 第 一 周 内 波动 较为 明显 ， 
随 着 上 映 时 间 的 推移 ,情感 值 均 在 30 天 左右 逐渐 趋 于 
稳定 。 电影 上 映 第 30 天 , 情感 值 均值 稳定 在 1.7 左右 ， 
浮动 很 小 , 如 图 3 所 示 。 


| WW 


1 3 5 7 14 21 28 30 37 44 51 
电影 上 映 时 间 (天 ) 
负 向 情感 均值 的 绝对 值 一 正 向 情感 均值 ”一 情感 均值 


图 3 《七 月 与 安生 》 情 感 变 化 趋势 
综 上 所 述 , 若 评论 数据 的 波动 性 太 大 ,会 导致 情 
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型 构建 时 , 要 选取 能 够 反映 稳定 情感 的 数据 源 。 本 实 
验 中 选取 电影 上 映 之 后 30 天 内 的 豆瓣 电影 评论 数据 
作为 语 料 数据 来 源 。 

使 用 爬虫 软件 “ 集 搜 客 ”3 抓 取 豆 办 电影 影评 (包括 
短评 用 户 名 、 短 评 内 容 、 评 论 时 间 、 获 得 支持 数 及 评分 
数 ) 作 为 实验 数据 集 , 选用 IMDb 为 客观 评分 来 源 。 共 抓 
取 30 部 电影 1 469 660 条 电影 短评 ， 数 据 去 重 后 选取 电 
影 上 映 后 30 天 内 的 短评 数据 , 共计 513 788 条 。 
4.2 ”预测 变量 获取 

(1) 网 络 用 户 评论 相关 预测 指标 

网 络 评论 预测 变量 通过 豆 泊 电影 页 面相 关 数 据 选 
取 : 评分 人 数 (criticNum) 指 参与 该 电影 评分 的 用 户 数 ; 
参与 评论 人 数 (commentNum) 指 参与 该 电影 的 文字 评 
论 的 用 户 数 ; 标记 看 过 人 数 (watchedNum) 指 已 经 看 过 
该 部 电影 的 用 户 数 ; 想 看 的 人 数 (desireNum) 指 在 豆 辩 
上 标记 了 对 这 部 电影 感 兴趣 或 者 想 要 观看 的 用 户 数 。 
其 中 ,开始 选择 想 看 的 用 户 , 看 过 电影 后 改 为 看 过 ， 
将 不 再 在 想 看 那 组 ， 即 两 组 互 斥 。 根 据 所 获得 数据 延 
展 出 两 个 变量 : 参与 电影 评论 的 比例 (comment Ratio) 
和 想 看 人 数 比 例 (desireRatio), 计算 方法 如 公式 (1) 和 
公式 (2) 所 示 。 


commentRatio = Nh (1) 
watchedNum 
desireRatio = 一 一 一 一 一 一 一 一 一 一 一 ~ hl (2) 
(desireNum + watchedNum) 

commentRatio 是 评论 人 数 在 看 过 人 数 中 的 占 比 ， 
表示 想 表达 对 电影 观点 的 影迷 占 比 情况 。 很 多 影迷 在 
未 观看 电影 前 先 对 电影 进行 标记 ,表明 对 电影 有 极 大 
的 兴趣 ，desireRatio 表示 想 看 人 数 占 想 看 人 数 和 已 看 
过 人 数 之 和 的 比例 , 可 反映 对 电影 的 喜爱 程度 。 由 于 
获取 的 数据 量 级 比较 大 , 为 避免 模型 失真 ， 本 文采 用 
底数 为 10 的 对 数 缩放 方法 对 数据 进行 变换 ,例如 
criticNum 变换 后 的 变量 名 为 LeriticNum。 

(2) 情感 特征 指标 

本 文 情感 量化 采用 基于 情感 词典 的 方式 , 使 用 大 
连理 工大 学 的 情感 词汇 本 体 库 仆 。 本 体 库 中 词汇 的 情 
感 强度 1、3、5、7、9 级 别 分 别 对 应 1、2、3、4、5 
分 , 正 向 情感 为 正 数 , 负 向 情感 为 负数 ， 中 性 词 为 零 。 
例如 , “阻力 ”在 本 体 库 中 被 标注 为 负 向 情感 词 并 且 情 


感 量化 结果 出 现 偏差 ,实际 预测 结果 失真 。 因此 , 在 模 


感 强度 为 3， 其 对 应 的 情感 分 数 为 -2 分 。sentimentScore 
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代表 某 条 评论 的 情感 分 数 , i 代表 评论 中 正 向 词 的 序列 
数 , P; 代 表 该 词 对 应 的 正 向 情感 分 数 。j 代表 评论 中 负 
向 词 的 序列 数 ，N; 代表 该 词 对 应 的 负 向 情感 分 数 , 假 
设 评论 中 共有 个 正 向 情感 词 , m 个 负 向 情感 词 , 情感 
分 数 计算 如 公式 (3) 所 示 。 


SsentimentScore = 27 +》， N; (3) 
i=l i=l 


对 30 天 的 电影 评论 数据 的 情感 进行 量化 ,并 求 出 
情感 均值 (sentimentmeanScore)。 为 更 好 地 表达 电影 的 
情感 倾向 , 在 情感 均值 的 基础 上 , 计算 正 向 情感 均值 
(posmeanScore) 和 人 负 向 情感 均值 (negmeanScore)。 正 向 
情感 均值 为 30 天 电影 评分 数据 正 向 评价 的 算术 平均 
值 , 负 向 情感 均值 为 30 天 电影 评分 数据 负 向 评价 的 算 
术 平 均值 。 i、j、k 分 别 指 代 某 条 评论 数据 ; a 表示 正 向 
评论 数量 ;2 表示 负 向 评论 数量 ; n 指 总 数量 ,， 即 n=a+tb; 
pos() 指 第 i 条 评论 的 正 向 情感 值 ; neg0) 指 第 j 条 评论 
的 负 向 情感 值 ， sentimentScore( 有 D 指 第 条 评论 的 情感 
值 。 计 算 如 公式 (4)- 公 式 (6) 所 示 。 


S$- pos 


posmeanScore = 站 (4) 


>.neg()) 
negmeanScore = = (5) 
> sentimentScore(k) 
sentimentmeanScore = 人 1 (0) 
n 


提取 完 所 有 电影 的 情感 特征 后 , 组 建 出 所 有 的 预 
测 变 量 及 含义 ( 见 表 2), 并 归纳 整理 变量 数据 (部 分 数 
据 见 表 3)。 
表 2 预测 变量 及 含义 


预测 变量 名 称 实际 含义 
LeriticNum 参与 评分 的 人 数 以 10 为 底 对 数值 
LeommentNum 参与 评论 的 人 数 以 10 为 底 对 数值 
LwatchedNum 已 经 看 过 的 人 数 以 10 为 底 对 数值 
LdesireNum 想 要 观看 的 人 数 以 10 为 底 对 数值 
commentRatio 评论 人 数 占 评分 人 数 的 比例 
desireRatio 想 要 观看 人 次 占 看 过 和 想 看 人 次 的 比例 
sentimentmeanScore 电影 评论 情感 均值 
posmeanScore 电影 正 向 评论 情感 均值 
negmeanScore 电影 负 向 评论 情感 均值 
doubanScore 豆 辨 电影 评分 


表 3 ”预测 变量 值 表 ( 部 分 ) 


Lcritic Lecomment Lwatched Ldesire 
Num Num Num Num 


编号 ”电影 名 称 


comment 


sentiment posmean negmean douban 


1 小 时 代 4 4.9019 4.5759 4.9563 3.9654 


小 时 代 2 5.1045 4.7196 5.1774 3.8624 


2 
3 ”恶棍 天 使 4.8992 4.6329 4.9357 3.8567 
4 万 物 生 长 4.9530 4.5765 5.0190 3.9803 


5 ” 捉 妖 记 5.3677 4.9937 5.4185 4.2924 
6 ， 湄公河 行动 ”5.3412 5.0007 5.3659 4.5103 
7 ” 驴 得 水 5.1235 4.7927 5.1492 4.4252 
8 ”功夫 熊猫 3 5.1937 4.7917 5.2385 4.0827 


9 百 鸟 朝 凤 4.9233 4.5974 4.9611 4.3204 
10 ”七 月 与 安生 5.2082 4.8858 5.2441 4.2882 


Ratio Ue RAO meanScore Score Score Score 
0.4720 0.0927 0.6022 4.3345 —3.7442 4.6 
0.4121 0.0462 0.6174 4.2995 —3.7318 5 
0.5416 0.0769 0.3044 4.1802 —3.6735 4 
0.4202 0.0838 0.5267 4.1363 —3.8332 5.9 
0.4226 0.0696 1.2405 4.3430 -3.4054 6.8 
0.4565 0.1224 1.4745 4.6532 —3.5063 8.1 
0.4668 0.1588 0.4241 4.3093 —4.1345 8.3 
0.3962 0.0653 1.7018 4.6260 -3.0234 7.7 
0.4722 0.1861 2.1067 5.5629 -3.3765 8 
0.4760 0.0997 1.7458 4.8169 -3.3355 7.6 


4.3 ”预测 分 析 
回归 分 析 方 法 可 以 用 来 判别 客观 事物 数量 的 依 


种 方法 [ 针 。 常 见 的 回归 预测 有 多 元 线性 回归 (Multiple 
Regression)jP、 逐 步 回 归 (Stepwise RegressiomPo 、 岭 


存 关 系 , 可 以 用 来 处 理 多 个 变量 之 间 相 互 关 系 。 回 归 
分 析 是 研究 相关 关系 的 一 种 数学 方法 ， 是 寻找 不 完 
全 确定 的 变量 间 的 数学 关系 式 并 进行 统计 推断 的 一 


数据 分 析 与 知识 发 现 


回归 (Ridge RegressiomP7 、 套 索 回 归 (Lasso Regression) 中 
等 方法 。 
针对 上 述 的 数据 变量 ,分 别 使 用 多 元 线性 回归 、 
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逐步 回归 、 岭 回归 以 及 套 索 回 归 方法 对 模型 进行 变量 
ft en i i ge 
影 中 27 部 电影 数据 作为 模型 构建 数据 ，3 部 电影 作 
ss 
由 于 数据 涉及 到 多 个 变量 , 但 无 法 判断 各 变量 在 


模型 中 关联 程度 的 大 小 , 因此 使 用 多 元 线性 回归 , 观 
察 各 变量 P 值 的 大 小 , 结果 如 表 4 所 示 。 
表 4 多 元 线性 回归 各 变量 了 值 
变量 名 P 值 
LcriticNum 0.142 
LeommentNum 0.217 
LwatchedNum 0.304 
LdesireNum 0.151 
commentRatio 0.359 
desireRatio 0.308 
sentimentmeanScore 0.824 
posmeanScore 0.427 
negmeanScore 0.820 


当 所 有 变量 加 入 到 多 元 线性 回归 时 , 最 大 值 
wacthedNum 为 0.75， 远大 于 0.05; 最 小 值 LeriticNum 
也 达到 0.142, 所 有 变量 的 P 值 均 大 于 0.05。 构建 多 元 
线性 回归 模型 失败 ， 需 要 对 变量 进行 筛选 。 

使 用 逐步 回归 、 岭 回归 以 及 套 索 回归 分 别 对 模型 

进行 变量 选取 , 并 观察 各 个 变量 的 P 值 , 如 表 5 所 示 。 


表 5 三 种 回归 方法 各 变量 P 值 


回归 方法 变量 名 P 值 

LcriticNum 0.0320 
LcommentNum 0.0046 

逐步 回归 LwacthedNum 0.0728 
LdesireNum 0.0027 
posmeanScore 0.0020 
LdesireNum 0.0001 

岭 回归 commentRatio 0.0336 
posmeanScore 0.0020 
LdesireNum 0.0001 

套 索 回归 
sentimentmeanScore 0.0003 


通过 对 比 逐步 回归 、 岭 回归 、 套 索 回归 三 种 回归 
分 析 的 统计 量 来 分 析 上 述 三 种 模型 的 实际 预测 效果 ， 
各 了 值 均 表示 模型 显著 ， 进 一 步 探索 三 种 模型 R 方 和 
调整 R 方 , 如 图 4 所 示 。 
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R 方 调整 R 方 


拟 合 优 度 指标 
日 逐 步 回归 日 岭 回归 sa 套 索 回归 


岭 回 归 、 套 索 回 归 模 型 
统计 量 对 比 

岭 回归 在 两 个 指标 上 都 是 最 弱 的 ， 且 调整 R 方 的 
值 与 逐步 回归 、 套 索 回 归 的 差距 非常 大 。 对 于 调整 R 
方 , 逐步 回归 的 值 和 套 索 回归 的 值 相 对 较 高 ,但 是 逐 
步 回 归 的 R 方 值 最 高 ,达到 0.7656， 拟 合 效果 较 佳 。 
因此 ， 最 优选 择 为 逐步 回归 方法 构建 的 回归 方程 ,如 
公式 (7) 所 示 。 


Y=—12.9328+35.7904x LeceriticNum—11.5032x 
LeommentNum 一 24.6262 x LwacthedNum+ (7) 
2.9563x LdesireNum+ 1.2417 x posmeanScore 


图 4 逐步 回归 、 


4.4 预测 结果 评价 

预测 分 析 后 ,还 需 对 得 到 的 预测 模型 进行 评价 。 
若 出 现 异 常 值 , 需 分 析 原 因 , 吻 除 异常 值 后 重 构 模型 ， 
并 用 检验 数据 对 模型 进行 检验 。 

(1) 预测 结果 分 析 


使 用 最 优 回归 方程 公式 (7) 对 各 电 景 
测 ， 结 果 如 图 5 所 示 。 
通过 拟 合 IMDb 分 数 与 评分 预测 值 ， 可 以 发 现 大 
部 分 电影 之 间 的 差距 很 小 , 误差 值 在 很 小 的 范围 内 ， 
说 明 预 测 模型 整体 上 是 有 效 的 。 其 中 有 几 部 电影 差距 
较为 明显 , 例如 《小 时 代 2》 和 《小 时 代 4》 预 测 分 数 
明显 大 于 其 IMDb 分 数 。 

(2) 异常 值 发 现 

从 模型 的 预测 结果 来 看 , 正常 电影 评分 预测 
值 和 IMDb 值 之 间 差 距 往往 不 超过 1 分 ， 本文 定 义 
预测 值 与 IMDb 值 差 距 超过 1 分 的 为 异常 值 ， 如 图 
6 所 示 。 

从 图 6 可 知 , 拟 合 正常 情况 下 的 电影 如 《明日 边 
缘 》《 火 星 救援 》， 预测 值 与 IMDb 分 数 的 差距 很 小 。 
而 《小 时 代 2 六 《小 时 代 4》 预测 值 与 IMDb 值 差距 
超过 1 分 , 甚至 2 分 。 可 以 判断 这 两 部 电影 的 评论 数 


彤 评分 进行 预 
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电影 名 称 
a IMDb 分 数 = 预测 值 
图 5 逐步 回归 构建 模型 预测 评分 与 实际 评分 的 直方 图 
表 6， 吻 除 异常 值 后 逐步 回归 变量 P 值 
7.5 
65 变量 名 P 值 
是 LeriticNum 0.0003 
~ 4.5 LeommentNum 0.0004 
3.5 LdesireNum 0.0002 
2.5 posmeanScore 0.0001 
小 时 代 4 小 时 代 2 ”明日 边缘 ”火星 救援 、 
BE 影 名 称 新 的 回归 分 析 结 果 的 统计 量 如 图 7 所 示 , 剔除 异常 
a IMDb 分 数 “a 预测 值 值 后 的 R 方 和 调整 RR 方 明显 提升 ,R 方 的 值 达到 0.8572,， 


图 6 异常 值 和 正常 值 拟 合 效果 对 比 


据 情感 倾向 具有 非 真实 性 。 通 过 查阅 新 闻 和 文献 证 实 
两 部 电影 确实 存在 刷 分 行为 , 说 明 本 模型 不 仅 具 有 评 
分 预测 的 作用 , 在 “网 络 水 军 ” 探 测 方面 也 发 挥 一 定 的 
作用 。 

(3) 剔除 异常 值 并 重 构 模 型 

为 避免 异常 值 对 模型 的 干扰 , 殊 除 《小 时 代 2》 和 

《小 时 代 4》 的 数据 ,利用 逐步 回归 的 方法 重新 构建 预 

测 方程 。 此 外 ,新 的 回归 模型 剔除 了 P 值 略 高 的 
LwatchedNum， 仪 使 用 LeriticNum、LcommentNum 、 
LdesireNum 以 及 posmeanScore， 这 些 变 量 的 P 值 都 具 
有 极 高 的 显著 性 ， 如 表 6 所 示 , 构建 回归 方程 如 公式 
(8) 所 示 。 


Y=—11.1349+7.4531x LeriticNum—7.4636 x LcommentNum 
+2.3371xLdesireNum+1.1499 x posmeanScore 


(8) 


弥 划 ”数据 分 析 与 知识 发 现 


调整 及 方 的 值 达到 0.8287, 模型 的 预测 效果 较 好 。 
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图 7 别 除 异常 值 回归 分 析 统 计量 的 直方 图 


对 比 新 模型 拟 合 的 预测 值 与 IMDb 分 数 如 图 8 所 
示 , 可 以 明显 看 出 , 各 个 电影 的 预测 值 和 IMDb 值 之 
间 差距 较 小 , 最 大 差距 的 为 《 叶 间 3》, 差 值 为 0.7 分 ; 
最 小 差距 的 为 《垫底 辣妹 》, 差 值 仅 为 0.05 分 。 因 此 ， 
公式 (8) 具 有 和 较 好 的 预测 效果 ,根据 方程 中 的 变量 要 


201712.01599v1 


chinaXiv 


分 值 
己 一 ibm 上 上 wmw 人 和 ~1oo 忆 


ChinaXiv 合 作 期 刊 


总 第 8 期 2017 年 第 8 期 


4 


CR 
> © ES KNACK < 个 A A 8 A 3 
Se oh 
过 
电影 名 称 


a IMDb 分 数 = 预测 值 
图 8 剔除 异常 值 后 回归 构建 模型 预测 评分 与 IMDb 分 数 的 直方 图 


求 , 仅 需 要 其 电影 的 LeriticNum、LcommentNum 、 
LdesireNum 和 和 posmeanScore 就 可 以 对 电影 的 客观 评分 
进行 预测 。 

(4) 模型 检验 

为 了 检验 模型 实际 效果 , 使 用 预 留 的 三 部 电影 
据 进行 评分 预测 , 分 别 为 《 心 迷宫 》《 七 月 与 安生 》 以 
及 《我 的 少女 时 代 》, 相关 变量 如 表 7 所 示 。 

表 7 评分 预测 模型 检验 数据 


电影 名 称 ”LeriticNum LecommentNum LdesireNum posmeanNum 
心 迷宫 5.1247 4.7244 4.6835 4.9646 
七 月 与 安生 5.2082 4.8858 4.2882 4.8169 
我 的 少女 时 代 ”5.3919 5.0585 4.4110 4.8415 


利用 公式 (9) 对 三 部 电影 的 评分 进行 预测 ， 结 果 如 
图 9 所 示 。 


je 


分 值 
己 一 让 mm 上 了 ~oco 尼 呈 
| 


七 月 与 安生 


我 的 少女 时 代 心 迷宫 
电影 名 称 
上 日 IMDb 分 数 日 预测 值 


图 9 模型 实际 预测 效果 
可 以 看 出 三 部 电影 的 评分 预测 值 与 IMDb 实际 值 


都 很 接近 且 误 差 很 小 《七 月 与 安生 ;的 误差 为 0.0522， 


《我 的 少女 时 代 》 的 误差 为 0.0227, 《 心 迷宫 》 的 误差 
为 0.0644， 因此, 模型 的 实际 预测 效果 较 理 想 。 


S 结 语 


互联 网 环境 下 , 评分 网 站 不 容 忽 视 , 一 方面 为 潜 
在 消费 者 选 购 商 品 提供 决策 参考 , 另 一 方面 为 商家 提 
供 商 机 。 评 分 网 站 由 于 开放 性 导致 产品 评分 失真 ， 客 
观 的 评分 网 站 需求 愈 发 迫切 。 本 文 提出 基于 网 络 用 户 
评论 的 评分 预测 模型 来 预测 客观 评分 , 该 模型 主要 包 
括 网 络 用 户 评 论 获 取 、 预 测 变 量 获取 、 预 测 分 析 以 及 
预测 结果 评价 4 个 模块 。 为 验证 评分 预测 模型 的 有 效 
性 , 以“ 豆 办 电影 ”的 评论 内 容 作 为 语 料 来 源 ,以 IMDb 
作为 客观 评分 来 源 。 对 近年 来 30 部 不 同类 型 的 电影 影 
评 进行 实证 研究 ,结果 显示 , 在 评分 预测 模型 中 ,， 电 
影 上 映 30 天 时 的 评 和 最 适合 用 作 预 
测 数据 源 。 在 回归 分 析 中 , 逐步 回归 方式 筛选 出 变量 
构建 的 回归 方程 预测 效果 最 优 。 在 预测 分 数 和 IMDb 
分 数 拟 合 阶段 ， 发 现 异 党 值 ， 说 明 本 模型 不 仅 具 有 评 
分 预测 的 作用 , 在 “网 络 水 军 ” 探 测 方面 也 有 一 定 的 作 
用 。 剔 除 异 常 值 后 , 仅 需 要 其 电影 的 LeriticNum 、 
LecommentNum、LdesireNum 和 posmeanScore 变量 就 可 
以 对 电影 的 客观 评分 进行 预测 , 重 构 模型 之 后 利用 三 
部 电影 对 模型 评分 预测 效果 进行 检验 ,预测 评分 效果 
较 佳 。 
本 文 存在 以 下 不 足 之 处 : 数据 样本 量 较 少 , 可 考 
虑 通过 增加 数据 量 优化 模型 预测 效果 ; 此 外 , 在 情感 
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分 析 技 术 方 面 , 主要 是 基于 词典 技术 进行 情感 特征 提 
取 , 未 来 可 尝试 结合 机 器 学 习 方 法 或 者 其 他 前 沿 的 情 
感 分 析 技 术 进 一 步 精确 提取 情感 特征 ; 除了 以 电影 评 
分 网 站 作为 实例 外 , 可 选取 其 他 类 型 评分 网 站 的 数据 


进行 实证 研究 ， 以 验证 模型 的 普 适 性 。 
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Predicting Online Users’ Ratings with Comments 


Zhang Hongli Liu Jiying Yang Sinan Xu Jian 
(School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: [Objective] This study aims to build an effective prediction mechanism for online ratings, with the help of 
Web surfers’ comments. [Methods] We proposed a model with the following modules: Web users’comment acquisition, 
predictive variable acquisition, prediction analysis and the prediction results evaluation. We retrieved 30 movies of 
different types and user’s comments from the Web. 27 movies were used to build the model, which were then examined 
with the remaining movies. [Results] We employed the stepwise regression to select variables, which included the 
number of raters, the number of participants posting comments, the number of people who wanted to watch the moive 
and the sentiment value of the positive comments. The prediction results were quite close to the IMDb scores, and the 
maximum and the minimum differences were 0.0644 and 0.0227. [Limitations] The sample size, the accuracy of 
sentiment features, and compatibility of the model could be improved. [Conclusions] The proposed model effectively 
predicts movie Scores and detects the “water army” online. 

Keywords: Rating Prediction Sentiment Analysis Regression Analysis Movie Rating “Water Army” Detection 


人 工 智能 有 助 于 早期 皮肤 癌 检 测 


滑铁卢 大 学 和 Sunnybrook 研究 所 的 研究 人 员 开 发 了 一 项 新 技术 , 使 用 人 工 智能 (AD) 来 辅助 早期 的 黑色 素 瘤 皮 肤 瘤 检测 。 
该 技术 采用 机 器 学 习 软 件 分 析 皮 肤 损伤 的 图 像 , 并 为 医生 提供 黑色 素 瘤 的 生物 标志 物 指示 的 客观 数据 。 

该 人 工 智 能 系统 使 用 成 千 上 万 的 皮肤 图 像 及 其 相应 的 黑色 素 和 血红 蛋白 水 平 进行 训练 , 可 以 减少 不 必要 的 活检 ,大 大 节 
省 了 医疗 成 本 。 它 能 在 医生 采取 更 多 的 侵入 性 治疗 行动 之 前 ,为 医生 提供 病变 特征 的 客观 信息 ， 以 帮助 他 们 排除 黑色 素 瘤 。 

该 技术 最 早 将 在 2018 年 提供 给 医生 使 用 。 目 前 , 皮肤 病 学 家 主要 依靠 皮肤 病变 的 主观 视觉 检查 来 确定 患者 是 否 应 该 进 
行 活体 组 织 检查 以 诊断 疾病 。 这 一 新 系统 破译 了 病变 中 生物 标志 物质 的 水 平 , 为 目前 基于 外 观 的 评估 补充 了 一 致 的 、 定 量 的 信 
息 。 而 且 , 真 黑色 素 (一 种 赋予 皮肤 颜色 的 化 学 物质 ) 和 血红 和 蛋白 (红细胞 中 的 蛋白 质 ) 的 浓度 和 分 布 变化 是 黑色 素 瘤 的 强 指标 。 

(编译 自 : https://www.sciencedaily.com/releases/2017/08/170823090930.htm) 
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